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PROCEDE DE DISCRETISATION D ATTRIBUTS D'UNE BASE DE DONNEES. 

Methode de discretisation d'un attribut d'une base de 
donnees contenant une population d'individus, ledit attribut, 
dit attribut source, pouvant prendre plusieurs modalites, la 
methode etant caracterisee en ce que, dans une premiere 
etape, on regroupe lesdites modalites de I'attribut source en 
groupes elementaires et, a partir du tableau de contingence 
de I'attribut source et d'un attribut cible, on determine, dans 
une seconde etape, parmi un ensemble de couples de grou- 
pes elementaires, le couple de groupes elementaires dont 
la fusion diminue le plus fortement la probabilite d'indepen- 
dance de I'attribut source et de I'attribut cible, et que Ton fu- 
sionne dans une troisieme etape le couple de groupes 
elementaires ainsi determine, lesdites seconde et troisieme 
etapes etant iterees tant qu'il existe un couple de groupes 
elementaires permettant de diminuer ladite probabilite d'in- 
dependance. 
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La presente invention concerne une methode de discretisation d'attributs d'une 
base de donnees. L' invention trouve particulidrement application dans V exploitation 
statistique des donnees, notamment dans le domaine de l'apprentissage supervise. 

L'analyse statistique des donnees (encore appelee «data mining ») a pris un 
essor considerable ces dernieres annees avec l'extension du commerce electronique et 
l'apparition de tres grandes bases de donnees. Le data mining vise de maniere 
generate a explorer, classifier et extraire des regies d'associations sous-jacentes au 
sein d'une base de donnees. II est notamment utilise pour construire des modeles de 
classification ou de prediction. La classification permet d'identifier au sein de la base 
de donnees des categories a partir de combinaisons d'attributs, puis de ranger les 
donnees en fonction de ces categories. Par exemple, si la base de donnees est relative 
k des achats de produits par des consommateurs, ceux-ci pourront etre ranges en 
differentes categories : clients fideles, clients occasionnels, clients recherchant les 
produits soktes, clients recherchant les produits haut de gamme etc. La prediction, 
quant k elle, vise a decrire comment un ou plusieurs attributs de la base de donnees se 
comporteront dans le futur. Dans Fexemple de la base de donnees d'achats evoque 
plus haut, il pourra etre interessant de prevoir le comportement de ces consommateurs 
en fonction d'une baisse ou d'une hausse de prix de tel ou tel produit. 

Un des objectifs du data mining dit « supervise » est la construction d'un 
modele predictif visant a pr^dire un attribut determine. Cette construction consiste a 
chercher parmi les attributs de la base de donnees consid6r6e a identifier celui ou ceux 
qui presentent la plus forte dependance statistique avec un attribut cible et a decrire 
cette dependance. Par exemple, si Ton a classe les consommateurs en fonction de 
leurs montants d'achats annuels en differentes categories de consommation: grosse 
consommation, moyenne consommation, faible consommation, il sera interessant de 
determiner quels sont les attributs de la base de donnees achats qui sont les plus 
correles (ou de maniere equivalents les moins independants statistiquement) de 
l'attibut donnant la classe de consommation. On notera qu'au lieu de d'attribut cible 
« categorie de consommation », on aurait pu prendre directement l'attribut « montant 
d'achats annuels ». 
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De maniere generate, les valeurs (encore appelees modalites) prises par un 
attribut peuvent etre numeriques (par exemple un montant d'achats) ou symbolique 
(par exemple une categorie de consommation). On parle dans le premier cas d'attribut 
numerique et dans le second cas d'attribut symbolique. 
5 Certaines methodes de data mining supervise requierent une « discretisation » 

des attributs numeriques. On entend ici par discretisation d'un attribut numerique un 
decoupage du domaine des valeurs prises par un attribut en un nombre fini 
d'intervalles. Si le domaine en question est une plage de valeurs continues la 
discretisation se traduira par une quantification de cette plage. Si ce domaine est deja 

10 constitue de valeurs discretes ordonnees, la discretisation aura pour fonction de 
regrouper ces valeurs en groupes de valeurs cons£cutives. 

La discretisation des attributs numeriques a ete largement traitee dans la 
literature. On en trouvera par exemple une description dans Pouvrage de Zighed et al. 
intitule « Graphes d'induction » publie chez HERMES Science Publications. On 

15 distingue deux types de methodes de discretisation : les methodes descendantes et les 
methodes ascendantes. Les methodes descendantes partent de l'intervalle complet & 
discretiser et cherche le meilleur point de coupure de Pintervalle en optimisant un 
critere predetermine. Les methodes ascendantes partent d'intervalles etementaires et 
cherchent la meilleure fusion de deux intervalles adjacents en optimisant un critere 

20 predetermine. Dans les deux cas, elles sont appliquees iterativement jusqu*& ce qu'un 
critere d' arret soit satisfait. 

Une methode de discretisation ascendante utilisant le critdre du est connu 
dans la litterature sous le nom de ChiMerge. De meme une methode de discretisation 
descendante utilisant le critere du j£ est connu sous le nom de ChiSplit. 

25 Avant de presenter la methode ChiMerge on rappellera tout d'abord que le 

critere du ^ permet sous certaines hypotheses de determiner le degre d'independance 
de deux variables ateatoires. Soit S un attribut source et T un attribut cible. On 
supposera pour fixer les idees que S presente quatre modalites a,b,c,d et T trois 
modalites A,B,C. Le Tableau 1 montre le tableau de contingence des variables S et T 

30 avec les conventions suivantes : 
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ny est le nombre d'individus observes pour la i*"* modalite de la variable S et la 
y*" 16 modalite de la variable T . ny est encore appele effectif observe de la case (y) ; 

est le nombre total d'individus pour la /* me modalite de la variable S . est 
encore appete effectif observe de la ligne i ; 

nj est le nombre total d'individus pour la modalite de la variable T . rtj est 
encore appele effectif observe de la colonne j ; 

TV est le nombre total d'individus. 



S/T 


A 


B 


c 


Total 


A 


"n 


"12 


"13 


"1. 


B 


"21 


"22 


"23 


"2. 


C 


"31 


"32 


"33 


"3. 


D 


"41 


"42 


"43 


"4. 


E 


"51 


"52 


"53 


"5. 


Total 


".1 


"J2 


".3 


N 



Tableau 1 



De maniere generate, on notera let J respectivement le nombre de modalites de 
i'attribut S et le nombre de modalites de Pattribut T. 

On definit 1'effectif theorique e v de la case (ij) par <y=^-. e v represente le 

nombre d'individus qui serait observe^ dans la case du tableau de contingence dans le 
cas de variables independantes. L'ecart a l'independance des variables S et T est 
mesure par : 

% ~Lala ~ e CD 
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Plus la valeur de j£ est elevee, moins Phypothese d'independance des variables 
aleatoires S et T est probable. On parle par abus de langage de probabilite 
d'independance des variables. 

Plus precis£ment j£ est une variable aleatoire dont on peut montrer que la 
5 density suit une loi dite du a (I-\).(J-X) degres de liberie. La loi du j£ est celle 
suivie par une somme quadratique de valeurs aleatoires normales centrees. EUe a de 
fait Pexpression d'une loi y et tend vers une loi gaussienne lorsque le nombre de 
degres de liberty est 61eve. 

Par exemple si 7=5 et J=3, le nombre de degres de liberie vaut 8. Si la valeur de 
10 j? calcutee par (1) vaut 20, la loi du j£ a 8 degres de liberty donne une probabilite 
d'independance de S et T de 1%. 

Nous pr6senterons ci-apr6s la m&hode de discretisation ChiMerge. Nous nous 
plafons dans le cas general d'un attribut source Ski modalites et d'un attribut ThJ 
modalites. La methode ChiMerge considere seulement deux Iignes consecutives / et 
15 r+1 du tableau de contingence. Soit j'^'^j la distribution locale (c'est-a-dire 
dans le contexte local des lignes consecutives i et i+l) de probabilite des modalites 
pour P attribut cible T. Si n im est Peffectif de la ligne i et est Peffectif de la ligne 
les effectifs observes et th£oriques de la ligne / s'expriment respectivement par 
n^a^ et e^^fo ou les a y represented les proportions d'effectifs observes pour la 

20 ligne /. De meme, les effectifs observes et theoriques de la ligne i+l s'expriment 
respectivement par «Mj= a /+i,/ w i-«-i,. et Gmj^j^m °^ ^ es a ' +l J repr^sentent les 
proportions observees de modalites de T pour la ligne i+l. La distribution locale de 
probabilite q \ 9 q 2,..^ 'j des modalites de P attribut cible peut etre exprimee par : 
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Selon la methode ChiMerge, on calcule la valeur du pour les lignes / et i+1, 

j j 

soit, en tenant compte du fait que X^'> = S a !/ =1 : 



J=\ " J 



7+1,. 



J n 



(3) 



soit encore apres transformation 



„2 _ n ' n <«.. jh ( a y- a '+uf 

n i. n M..j=i v j 



(4) 



10 Zu+\ QSt 11116 variable aleatoire suivant une loi du a 7-1 degr^s de liberte. La 

methode ChiMerge propose de fusionner les lignes i et z+ 1 si : 



probixl^J-l^Pn 



(5) 



15 ou prob(ct,K) designe la probability que >a pour la loi du a K degres de 

libertes et pth est une valeur de seuil predetermine parametrant la methode. En 
pratique, la valeur prob(a 9 K) est obtenue k partir d'une table classique du donnant 
la valeur de a en fonction de prob(a,K) et de K. 

La condition (5) exprime que la probabilite d'independance de S et T au vu des 

20 deux lignes considerees est inferieure k une valeur de seuil. La fusion de lignes 
consecutives est iteree tant que la condition (5) est verifiee. La fusion de deux lignes 
entraine le regroupement de leurs modalites et la sommation de leurs effectifs. Par 
exemple dans le cas d'un attribut numerique a valeurs continues on a avant fusion : 
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et apres fusion : 


Tableau 2 






[Si,Si+2[ 










«/, + "i+i,. 



5 

Tableau 3 

Un premier probteme soulevS par Temploi de la m&hode ChiMerge est le choix 
du parametre pm qui ne doit pas trop 61ev<S sous peine de fusionner toutes les lignes ni 
10 trop faible sous peine de n'en fusionner aucune paire. En pratique, il est tres difficile 
de trouver un compromis. 

Un second probteme intrinseque a cette m6thode est d'operer localement sans 
tenir compte de Pensemble des modalit^s (ou du nombre d'intervalles) de Tattribut 
source. On ne sait pas a priori si le resultat de la discretisation est globalement 
1 5 optimal sur cet ensemble. 

En outre, la methode ChiMerge est limitee k une discretisation mono- 
dimensionnelle en ce sens qu'elle ne peut opSrer que sur un seul attribut source a la 
fois et non sur un /7-uplet d'attributs. 

Enfin, la methode ChiMerge ne permet pas de mesurer la probability 
20 d'independance entre un attribut source et un attribut cible et, par voie de 
consequence, pour un attribut cible donne, de classer des attributs source en fonction 
de leurs probabilites d'independance vis a vis de Pattribut cible. 

L'objectif de la presente invention est de proposer une methode de discretisation 
d'attributs qui ne presente pas les inconvenients et limitations enonces ci-dessus. A cet 
25 effet, l'invention est definie par une methode de discretisation d'un attribut d'une base 
de donn^es contenant une population d'individus, ledit attribut, dit attribut source, 
pouvant prendre plusieurs modaJit^s, ladite methode comprenant une premidre 6tape 
dans laquelle on regroupe lesdites modaliUSs de l'attribut source en groupes 
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elementaires et, une seconde etape dans laquelle on determine, a partir du tableau de 
contingence de l'attribut source et d'un attribut cible, parmi un ensemble de couples 
de groupes elementaires, le couple de groupes elementaires dont la fusion diminue le 
plus fortement la probability d'independance de l'attribut source et de Pattribut cible, 
5 et une troisieme etape dans laquelle on fusionne le couple de groupes elementaires 
ainsi determine, lesdites seconde et troisieme etapes etant iter^es tant qu'il existe un 
couple de groupes elementaires permettant de diminuer ladite probability 
d'independance. 

Afin de determiner le couple de groupes elementaires dans la seconde etape, on 
10 pourra estimer pour chaque couple de groupes elementaires dudit ensemble, la valeur 
du du tableau de contingence apres fusion dudit couple et Ton selectionnera le 
couple produisant la valeur du j£ apres fusion la plus elevee. 

Avantageusement, pour chaque couple de groupes elementaires, on calcule la 
variation du j£ du tableau de contingence avant et apres fusion dudit couple. Les 
15 variations du associ6es aux differents couples seront alors triees sous forme de liste 
de valeurs decroissantes et que Ton selectionnera le premier couple de la liste. 

Le couple de groupes elementaires etant selectionne, on procedera a la fusion 
dudit couple si la probability du j£ relative au tableau de contingence apres fusion 
dudit couple est inferieure a la probability du £ relative au tableau de contingence 
20 avant fusion. 

Selon une variante, les probabilitys du relatives au tableau de contingence 
avant et apres fusion sont exprimees de maniere logarithmique. 

Typiquement, ledit ensemble de couples de groupes elementaires est constitue 
de tous les couples de groupes voisins au sens d'une relation de voisinage 
25 predeterminee. 

On recherche de preference parmi les couples de groupes elementaires voisins 
ceux comprenant au moins un groupe presentant au moins un effectif theorique par 
case du tableau de contingence inferieur a un effectif minimum predetermine et on les 
identifie comme couples prioritaires au moyen d'une information d'identification. 
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Dans ce cas, s'il existe un ou des couples prioritaires, on fiisionne le couple prioritaire 
produisant la valeur du apres fusion la plus eievee. 

Selon un premier mode de realisation, Fattribut source etant un attribut 
num6rique mono-dimensionnel, les groupes eiementaires voisins sont constitues par 
5 des intervalles adjacents. 

Selon un second mode de realisation, Fattribut source etant un attribut 
numerique multi-dimensionnel forme par plurality d'attributs numeriques mono- 
dimensionnels et les individus de la population etant repr^sentes par des points dans 
Fespace desdits attributs, lesdits groupes elementaires sont les cellules de Voronoi de 
1 0 cet espace, contenant lesdits points. 

Dans ce cas, on construit le graphe de Delaunay associe aux cellules de Voronoi 
et Pon elimine de ce graphe tout arc joignant deux cellules voisines en passant par une 
troisidme, les couples de groupes elementaires voisins etant alors donnes par les arcs 
du graphe de Delaunay apres Fetape d'elimination. 
1 5 Selon un troisieme mode de realisation, Fattribut source est de type symbolique. 

L'invention concerne encore une methode devaluation de la dependance d'un 
attribut numerique bi-dimensionneL, forme par un couple d'attributs numeriques 
mono-dimensionnels, vis a vis d'un attribut cible. Les individus de la population sont 
representes par des points dans le plan desdits attributs. Selon cette methode, on 
20 discretise Fattribut bi-dimensionnel par la methode de discretisation multi- 
dimensionnelle mentionnee plus haut et Fon visualise par des moyens de visualisation 
des goupes de cellules de Voronoi fusiopnees par ladite methode. 

L'invention concerne enfin un logiciel de data mining comprenant un 
programme de discretisation d'au moins un attribut d'une base de donnees, tel que son 
25 execution sur un ordinateur effectue les etapes de la methode exposee ci-dessus. 

Les caracteristiques de Finvention mentionnees ci-dessus, ainsi que d'autres, 
apparaitront plus clairement k la lecture de la description suivante d'un exemple de 
realisation, ladite description etant faite en relation avec les dessins joints, parmi 
lesquels : 
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la Fig. 1 illustre sous forme d'organigramme la m&hode de discretisation 
d'attributs selon un mode de realisation de 1'invention ; 

la Fig. 2 illustre un premier exemple de discretisation d'un attribut symbolique; 
la Fig. 3 illustre un second exemple de discretisation d'un attribut symbolique 
5 avant et apres fusion; 

la Fig. 4 represente un exemple de diagramme de Voronoi ; 
la Fig. 5 represente le diagramme de Delaunay associe au diagramme de 
Voronoi de la Fig. 4 ; 

la Fig. 6 represente un ensemble d'individus projetes sur le plan de deux 
1 0 attributs num£riques ; 

la Fig. 7 represente le diagramme de Delaunay associe a l'ensemble d'individus 
de la Fig. 6 ; 

la Fig. 8 represente les zones de discretisation associees a l'ensemble 
d'individus de la Fig. 5. 
15 Une premiere idee generate a la base de 1'invention est de discretiser un attribut 

source en optimisant un critere statistique portant sur l'ensemble du tableau de 
contingency Une seconde id<5e generate a la base de 1'invention est d'extrapoler cette 
discretisation au cas multi-dimensionnel en feisant appel a un graphe de Delaunay. 

Nous exposerons 1'invention tout d'abord dans le cas d'un attribut S numerique 
20 mono-dimensionnel a valeurs continues. Apres avoir ordonne les modaUtes de S, 
l'ensemble de ces modaUtes peut etre decoupe en intervaUes elementaires Sf={s k s m [ 9 
z=l,..,7. Nous souhaitons evaluer le degre d'independance de cet attribut avec un 
attribut cible T de modaUtes T j9 j=\ 9 „J. Ces modaUtes 7} peuvent etre des modaUtes 
symboUques ou numSriques. Dans ce dernier cas eUes peuvent etre des valeurs 
25 discretes ou des intervaUes de valeurs continues. On peut reprdsenter le tableau de 
contingence : 



S/T 




T 2 




Tj 


Total 


5, 








"l,J 
















51 
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Sj 








nij 


«/.. 


Total 








n.J 


N 



Tableau 4 

D'apres (1) la valeur du sur l'ensemble du tableau peut s'exprimer par 



10 



15 



20 



25 



(6) 



Soit encore en notant ?i,?2,--»9j la distribution de probability des modalit£s de 

Tattribut cible et ay les proportions d'effectifs observes pour la ligne i et en 

j j 

remarquant que e^qjn^ n^^et Y^J^LP^ 1 : 



(7) 



ou ^est la valeur du ^ pour la ligne i. L'expression (7) signifie que le est 

additif par rapport aux lignes du tableau. 

Supposons maintenant que deux lignes consecutives i et z+1 soient fiisionnees. 
La valeur du apres fusion, notee Z%j+d P eut s'ecrire : 



*<f *>/+l 

ou > }f ( ^ + i ) est la valeur du j£ pour la ligne resultant de la fusion, c'est-a-dire : 

(9) 



zUHn^O^^f-l) avec 



L'expression (8) peut s'exprimer simplement en fonction de valeur du j£ avant 



fusion 
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=^+A4 <+1) (10) 

ou est la variation du j£ resultant de la fusion des lignes i et /+ 1 . La 

valeur de A^ (+1) peut etre calculee explicitement en fonction des proportions 
d'effectifs des lignes i et i+ 1 : 



La liste des valeurs de A^ <+1) est triee par valeurs decroissantes. Soit A^ / +I) 
premier element de la liste. On teste alors si : 

On notera que la loi du pour le premier terme n'a plus que (/-2)(/-l) degres 
de liberty suite k la fusion. En pratique, 6tant donne les faibles valeurs que peuvent 
prendre les termes de (12), la comparaison portera avantageusement sur les 
logarithmes de ces probabilites. 

La condition (12) traduit une diminution de la probability d'independance de S 
et T apres fusion des lignes i 0 et Etant donne la valeur negative Az^ JoH) , la 

valeur du j£ ne peut que decroitre avec la fusion. Etant donne que prob(a. 9 K) est une 
fonction decroissante de a et croissante de K, la relation (12) ne peut Stre verifiee que 
gr&ce a la diminution du nombre de degres de liberie. La diminution de la probability 
d'independance sera d'autant plus importante que A%1 , . n sera faible en valeur 

absolue, c'est a dire d'apres la relation (11) que les proportions observees pour les 
lignes considerees seront plus proches et ce pour les proportions qj les plus faibles. 

Si la condition (12) est veriftee, on fusionne les lignes io et 10+ 1. En revanche, si 
la condition (12) n'est pas verifiee, alors elle n'est verifiee pour aucun indice 1 par 
suite de la decroissance de prob(oL y K) en fonction de a. Le processus de fusion est 
alors arrete. 

Si les lignes io et z'o+1 ont ete fusionnees, on met a jour la liste des valeurs 
4ff(U-i) • On notera que cette mise a jour ne concerne en fait que les valeurs relatives 
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aux lignes contigues aux Iignes fusionnees a savoir les lignes d'indices i'o-l et i 0 +2 
avant fusion (si elles existent). Le processus de fusion est itere tant que la condition 
(12) est satisfaite. 

La methode decrite ci-dessus conduit a une discretisation ad hoc du domaine 

5 des modalites, c'est-a-dire a une discretisation qui minimise l'independance entre 
l'attribut source et 1'attribut cible sur l'ensemble du domaine. La methode de 
discretisation permet de regrouper des intervalles adjacents ayant des comportements 
de prediction similaires vis a vis de l'attribut cible, le regroupement etant arrete 
iorsqu'il nuit a la quality de prediction, en d'autres termes lorsqu'il ne fait plus 

10 decroitre la probability d'independance des attributs. 

On obtient par fusions successives un tableau de contingence dont le nombre de 
lignes se reduit et dont les effectifs par case augmentent. Afin de pouvoir tirer des 
conclusions Cables quant a la dependance ou l'independance des attributs source et 
cible il est souhaitable d'avoir un effectif minimum par case. II est communement 

15 admis que le test du est fiable pour des effectifs theoriques superieurs a 5 par case. 
Qui plus est, une distribution inhomogene etant plus probable pour une faible 
population que pour une population plus importante, on observe pour de faibles 
valeurs d'effectifs theoriques e v un phenomene, dit de « sur-apprentissage » dans 
lequel, a partir d'une valeur elevee du ^ on conclut indument a une dependance des 

20 attributs. On pourra alors convenir de respecter un effectif theorique minimum par 
case. On peut montrer qu'un effectif moyen minimum de l'ordre de log 2 (10AO(ou N 

est le nombre total d'individus) par case permet d'£viter de conclure de maniere 
erronee a la dependance des attributs. La methode de discretisation est alors adaptee 
de la maniere suivante : on accorde d'abord la priorite aux fusions de lignes verifiant 
25 (12) qui permettent de verifier un critere d'effectif niinimum. Le critere d'effectif 
minimum pourra, par exemple, s'^crire pour la Ugne i 0 : 

e w >log 2 (10A0,y=l,..^ (13) 

30 

Pour ce faire, on pourra marquer d'un drapeau les couples de lignes dont au 
moins Tune d' elles ne verifie pas la condition d'effectif minimum (13) et 1'on 
fusionnera le premier couple de lignes d'indices i 0 et io+l portant un tel drapeau. 
Apres fusion on met a jour les drapeaux des lignes adjacentes i'o-l et i 0 +2 en fonction 
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de Teffectif atteint par la ligne fusionnee. Lorsque toutes les lignes ont atteint 
Peffectif minimum, seule la condition (12) est prise en compte puisque critere ie 
critere d'effectif minimum est rempli. 

La Fig. 1 illustre Palgorithme d'un exemple de methode de discretisation selon 
5 Pinvention. 

L'algorithme debute par une etape 100 de partition du domaine de valeurs de la 
loi source en intervalles elementaires ordonnes. La valeur de pour le tableau de 
contingence et les valeurs Z(o P our Ies J lignes du tableau sont calculees en 110. Les 
valeurs A^ +1) sont ensuite deduites des valeurs jj^a Petape 120 et triees par valeurs 

10 decroissantes sous forme de liste en 130. Chaque element de la liste correspond a la 
fusion possible d'un couple de lignes i et L'ttape 140 teste si la condition 
d'effectif minimum (13) est vtrifiee. Dans Paffirmative, on passe directement au test 
150. Dans la negative, on poursuit par Petape 145. 

A Petape 145, on donne priorite (au moyen de drapeaux) aux couples de lignes 
15 dont Pune d'entre elles au mo ins n'a pas atteint Peffectif minimum et Pon selectionne 
en 165 le premier couple prioritaire de la liste que nous noterons (io, iVH). Le 
processus se poursuit en 170. 

A Petape 150, on teste si le premier element de la liste verifie la condition (12). 
Si ce n'est pas le cas, le processus se termine en 190. En revanche, dans Paffirmative, 
20 on selectionne en 160 le premier couple de la liste, que nous noterons egalement (jo , 
io+\) et Pon poursuit par Petape 170. 

A Petape 170, les lignes io et />H du couple selectionne sont fusionnees, c'est- 
&-dire les intervalles St et Si+\ sont concattnes. La nouvelle valeur de ^ o) est ensuite 

calculee en 180 ainsi que les nouvelles valeurs de A^_, A) et A^ /o+1) pour les 
25 intervalles adjacents, s'ils existent. En 185, La liste des valeurs A^ /+1) est mise a jour: 
les anciennes valeurs A#£_ 1JW et A ^(U> + i) sont supposes et ^ es nouvelles valeurs 
sont stockees. La liste des valeurs A^ /+1) est avantageusement organisee sous forme 

d'arbre binaire de recherche equilibre permettant de gerer les insertions/suppressions 
tout en maintenant la relation d'ordre dans la liste. Ainsi, il n'est pas necessaire de 
30 trier completement la liste a chaque etape. La liste des drapeaux est egalement mise a 
jour. Apres la mise a jour, le processus retourne a Petape de test 140. 

Selon une variante de realisation, la liste est constitute par les valeurs (positives) 
Z% f i +l) au U eu d'etre constitute par valeurs (negatives) A^ /+1) . 
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Au terme du processus de discretisation, on dispose de la valeur du de 
Fattribut discretise. Ainsi, si Ton procdde a la discretisation d'une plurality d'attributs 
source S k , on peut comparer leur capacite predictive vis a vis de Pattribut cible en 
comparant les probabilites proh^ 2 k /Zj) ou Ies xl et a k sont les valeurs de et les 
5 degres de liberty respectifs des attributs discretises. 

~>~ Nous avons suppose jusqu'a present que Fattribut S etait numerique mono- 
dimensionnel a valeurs continues. La m6thode de discretisation exposee ci-dessus est 
encore applicable lorsque S est a valeurs numeriques discretes. Les modalites 
numeriques sont d'abord ordonnees pour former les lignes du tableau de contingence 

10 de S et T puis regroupees par groupes elementaires, un groupe eiementaire pouvant, le 
cas echeant, ne contenir qu'un seul element. La methode de discretisation opere selon 
le meme principe que precedemment, en fiisionnant les groupes elementaires tant que 
la probability d'independance de S et T diminue. 

La methode de discretisation peut encore op6rer sur des attributs symboliques, a 

15 la difference qu'il n'existe pas necessairement de relation d'ordre total entre les 
modalites de Fattribut. Si une telle relation d'ordre existe, on peut se ramener au cas 
precedent en ordonnant les modalites selon cette relation d'ordre. La Fig. 2 illustre 
cette situation: les individus sont regroup6s par groupes elementaires GuG^^G^ 
chaque groupe contenant les individus relatifs a une modalite ou a un intervalle de 

20 modalites (au sens de la relation d'ordre pr^citee). Les groupes sont equivalents aux 
lignes du tableau de contingence. lis peuvent etre ordonnes au sein d'un graphe 
lineaire, chaque noeud correspondant a un groupe. La fusion ne peut etre realis£e que 
selon les arcs de ce graphe, entre groupes voisins. En revanche, si Fensemble des 
modalites de Fattribut source n'est pas pourvue d'une relation d'ordre total, on peut 

25 n6anmoins definir des relations de voisinage par des arcs d'un graphe, comme 
represents dans la partie gauche de la Fig. 3. Les arcs indiquent les fusions possibles 
entre les groupes. Apres fusion de deux groupes, les arcs du graphe sont reorganises. 
La partie droite de la Fig. 3 repr£sente une reorganisation du graphe apres fusion des 
groupes 3 et 4. La methode de discretisation opere ici sur les noeuds du graphe de la 

30 meme fa9on qu'elle operait precedemment sur les lignes du tableau de contigence. 

Le fonctionnement de la methode de discretisation sera illustre a Faide d'un 
exemple relatif k une base de donnees contenant des attributs de fleurs de la famille 
des Iris. La population de la base de donnees consideree est de 150 individus. Nous 
envisagerons Fattribut source « largeur de sepale » et Fattribut cible classe de la 
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fleur : Iris setosa, Iris versicolor, Iris virginica. Dans cet exemple, l'attribut source est 
un attribut numerique a valeurs continues et l'attribut cible est un attribut symbolique 
a 3 modalites. Le tableau de contingence est donne ci-apres : 



Largeur de 
sepale 


Iris 
versicolor 


Iris 

%rif irin 
VliglfuCa 


Iris 


Total 
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o 


0 
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2,2 


Z 


\ 


0 


3 


2,3 


•> 
j 


A 


I 


4 


2,4 


5 


A 
U 
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3 


2,5 


4 


4- 


\J 
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2,6 


3 


L 




5 


2,7 


5 


A 
*r 




9 


2,8 


6 


t> 
K 


n 


14 


2,9 


1 


Z 


i 
i 


10 


3 


8 


IZ 


o 


26 


3,1 


3 




J 


12 




3 


5 


5 


13 


3,3 


1 


3 


2 


6 


3,4 


1 


2 


9 


12 


3,5 


0 


0 


6 


6 


3,6 


0 


1 


2 


3 


3,7 


0 


0 


3 


3 


3,8 


0 


2 


4 


6 


3,9 


0 


0 


2 


2 


4 


0 


0 


1 


1 


4,1 


0 


0 


1 


1 


4,2 


0 


0 


I 




4,4 


0 


0 


1 


1 


Total 


50 


5C 


50 


150 



5 

Tableau 5 

Lors de 1' initialisation, on partitionne Ie domaine des modalites de la largeur de 
sepale [0,+oo[en 23 intervals elementaires : ]- oo; 2,1], ]2,1; 2,25] ... ]4,15; 4,3], ]4,3; 
10 +oo[. La valeur du £ est de 88,36. En prenant la loi du j? a 44 degres de libertes 
correspondante (44=(23-l)*(3-l)), on obtient une probability d'independance de 8,3 
10" 5 . Comme indiqu6 dans Ie tableau 6, on calcule alors le resultant de chaque 
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fusion d'intervalles : x\ij*\y Par exemple, la fusion des intervalles ]-oo; 2,1], ]2,1; 
2,25] donne un nouvel intervafle ]-oo; 2,25] et le %* resultant de la nouvelle table 
reduite a une valeur de 87,86. 



Intervalle flisionne 


2 




87,86 


]2,10; 2,35] 


87,44 


]2,25;2,45] 


87,72 


]2,35; 2,55] 


85,09 


]2,45; 2,65] 


88,18 


]2,55;2,75] 


88,33 


]2,65; 2,85] 


87,83 


]2,75;2,95] 


84,49 


]2,85;3,05] 


83,18 


)2,95; 3,15] 


87,03 


]3,05; 3,25] 


88,29 


]3,15; 3,35] 


88,12 


]3,25; 3,45] 


84,86 


]3,35;3,S5] 


87,20 


]3,45; 3,65] 


87,03 


]3,55;3,75] 


87,36 


]3,65; 3,85] 


87.03 


]3,75; 3,95] 


87,36 


]3,85; 4,05] 


88,36 


]3 ,95; 4,15] 


88,36 


]4,05; 4,25] 


88,36 


R15;+oo[ 


88,36 



5 tableau 6 

On cherche alors la fusion qui maximise le Ici, la valeur maximale du 
resultant d'une fusion est de 88,36, atteinte par exemple pour la fusion des deux 
derniers intervalles ]4,15; 4,3] et ]4,3; En prenant la loi du a 42 degr^s de 

10 liberte correspondante (il y a tin intervalle en moins), on obtient une probability 
d'independance de 3,8 10" 5 . La probability d'ind^pendance diminuant, la discretisation 
est amelioree et on realise la fusion correspondante. On recommence ces Stapes tant 
qu'il y a amelioration de la discretisation. Le tableau 7 illustre les Stapes successives 
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de discretisation. Les chiffres en gras indiquent que 1'effectif minimum est atteint, au 
sens de la relation (13). Ici, etant donne que les modalites de l'attribut cible sont 
equireparties (gy s qr a qii la relation (13) est equivalente a un effectif theorique par 
ligne de 33 (3.1og 2 (10*150)). Lorsque cet effectif est atteint pour toutes les lignes, on 
5 ne tient plus compte du critere d'effectif niinimum. 



Largeur 
de sepale 


Iris 

versicolor 


Iris 

virginica 


Iris 


Total 
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1 


0 
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1 
1 


1 0 
*">*• 
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4 
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2,8 


6 
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14 


2,9 
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2 


1 


10 


3 


8 


12 


6 


26 


3,1 


3 


4 


5 


12 


3,2 


3 


5 


5 


13 


3,3 


I 


3 


2 


6 


3,4 


1 


2 


9 


12 


3,5 


0 


0 


6 


6 


3,6 


0 


I 


2 


3 


3,7 


0 


0 


3 


3 


3,8 


I 0 




4 


6 


3,9 


0 


0 


2 


2 


4 


0 


0 


1 


1 


4,1 


0 


0 


1 






0 


0 


1 


1 


4,4 


0 


0 


1 


1 


Total 


50 


50 


50 


150 



3-1-0 



6-0-1 



9-1-1 



12-10-0 



8-6-0 



34-21-2 



18-18-0 25-20-1 



15-24-18 



6-9-10 



7-12-12 



1-2-15 



0-1-5 



0-0-2 



0-0-2 



0-3-9 



0-0-4 



1-5-24 



0-O-6 



1-5-30 



Tableau 7 

1 0 Au bout d'une vingtaine d'etapes, on arrive a la loi discr&isee suivante: 



Largeur 
de sepale 


Iris 
versicolor 


Iris 
virginica 


Iris 
Setosa 


Total 


]- oo ; 2.95[ 


34 


21 


2 


57 


[2.95; 3.35[ 


15 


24 


18 


57 


[3.35; oo [ 


1 


5 


30 


36 


Total 


r 50 


50 


50 


150 



Tableau 8 
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La valeur du j? associee a la loi discretisee est de 70,74, ce qui correspond a une 
probability d'independance de 1,66 10~ 14 (loi du a 4 degres de libertes). Deux 
fusions d'intervalles sont encore possibles. La meilleure d' entre elles est la premiere 
5 fusion, qui correspond a un de valeur 54,17. La probabilite d'independance 
associee est 1,73 10" 12 (loi du j? a 2 degres de libertes). Cette fusion ne respecte pas 
la condition (12) (elle augmente la probabilite d'independance) et est done refusee. 

L'attribut « largeur de sepale » a ete discretise en 3 intervalles. Dans le premier 
intervalle, la classe Iris setosa est tres rare. Dans les second, il y a 6quilibre entre les 

10 trois classes et dans le dernier, la classe Iris setosa est de loin la plus fr£quente. Cette 
partition est celle qui minimise la probabilite d'independance des attributs « largeur de 
sepale » et « classe de la fleur ». 

Nous envisagerons maintenant le cas oft l'attribut & discretiser est multi- 
dimensionnel, e'est-a-dire ou l'attribut peut s'exprimer comme un vecteur S=(S l 9 ..,5°) 

15 ou D est la dimension de l'attribut et 5^, </=l,..,Z) sont des attributs mono- 
dimensionnels. Nous consid&rerons pour simplifier le cas d'un attribut num^rique bi- 
dimensionnel (D=2). Chaque individu peut alors etre represente comme un point 
ayant pour coordonnees les modalit^s de S l et S 2 de 1'individu. La population des 
individus de la base de donn6e peut etre ainsi « projetee » dans un plan (S l 9 S*) sous la \ 

20 forme d'un ensemble S de points. Les relations de voisinage entre ces points peuvent 
etre visualisee a partir du diagramme de Voronoi de Tensemble S. On rappelle que le 
diagramme de Voronoi associ6 a un ensemble & de points est une partition de Tespace 
(ici un plan) en cellules contenant chacune un point de S, chaque cellule etant definie 
comme Tensemble des points de Tespace qui sont plus proches d'un point donne de & 

25 que de tous les autres points de S. Une cellule est formee d'un polyedre (ici un 
polygone) convexe entourant un point de S, chaque face du polyedre 6tant un plan 
mediateur du point de S associd a la cellule et d'un point voisin. A titre d'exemple, un 
diagramme de Voronoi associe a un ensemble de points est represente en Fig. 4. A 
partir du diagramme de Voronoi on peut construire un diagramme dual, dit diagramme 

30 de Delaunay, reliant les points de S appartenant a des cellules adjacentes. On a 
represents en Fig. 5 le diagramme (ou graphe) de Delaunay associ<§ au diagramme de 
Voronoi' de la Fig. 4. Chaque arc du graphe de Delaunay represente une relation de 
voisinage entre deux points de & . 
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La methode de discretisation construit le graphe de Delaunay de S et utilise les 
arcs du graphe de Delaunay pour effectuer une partition de Fespace en zones 
el&nentaires. Plus precisement, le graphe se compose d'arcs directs et d'arcs indirects. 
Les arcs directs entre deux noeuds ne passent que par les deux cellules adjacentes 
associees k ces noeuds. Le long d'un arc direct, le plus proche voisin est toujours un 
des deux points des deux cellules adjacentes. Les arcs indirects passent par au moins 
une troisieme cellule de Voronoi. Le long d'un arc indirect, le plus proche voisin peut 
etre un troisieme point riappartenant pas a une des deux cellules adjacentes. Lors d'un 
pretraitement, les arcs indirects sont eiimines. Seuls les arcs directs, traduisant une 
relation directe de proximite sont pris en compte lors de l'initialisation de la methode 
de discretisation. La fusion des cellules de Voronoi selon les arcs directs du graphe de 
Delaunay fournit les zones etementaires. 

Apres avoir effectue une partition de l'espace en zones elementaires, la methode 
de discretisation opere iterativement par fusion de zones, les seules fusions autorisees 
etant indiquees par un arc (direct) dans le graphe de Delaunay. Comme dans le cas 
mono-dimensionnel la fusion de deux zones n'est realisee que si la condition (12) est 
verifiee, c'est-a-dire que si cette fusion conduit h une diminution de la probability 
d'independance des attributs S et T. La discretisation fournit des regions connexes, 
chaque region etant en fait une reunion connexe de cellules de Voronoi*. Chaque 
region regroupe des individus homog£nes statistiquement vis a vis de l'attribut cible et 
a contrario deux regions distinctes ont un comportement distinct vis k vis de cet 
attribut. 

En outre, comme pour le cas mono-dimensionnel la vaieur de probability 
d'independance obtenue a Tissue de la discretisation permet de comparer les paires (de 
maniere generates les n-uplets) d'attributs continus et de les classer en fonction de leur 
vaieur predictive d'un attribut cible. 

La methode de discretisation multi-dimensionnelle s' applique encore a un 
attribut symbolique multi-dimensionnel, c'est-a-dire a un attribut S=(S l , ...S 0 ) ou 
sont des attributs symboliques. Comme dans le cas mono-dimensionnel on construit 
un graphe dont les noeuds sont des modalites ou des groupes de modalites et Ton 
sp£cifie par des arcs les fusions possibles entre groupes. 

A titre d'exemple, la Fig. 6 repr^sente une population d'individus d'une base de 
donnees projetee sur le plan defini par deux attributs numeriques continus. L'attribut 
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cible est la classe des individus pouvant prendre la modalite « classe 1 » representee 
par un losange ou la modalite « classe 2 » representee par un point. 

La Fig. 7 represente le diagramme de Delaunay associt. On rappelle que Ton ne 
retiendra de ce diagramme que les arcs directs pour initialiser la liste des fusions 
5 possibles. 

La methode de discretisation telle qu'exposee ci-dessus conduit a quatre zones, 
indiqutes en Fig. 8 par des niveaux de gris diflfcrents. Ces zones connexes sont 
formees par la fusion de cellules de Voronoi contenant chacune un individu de la 
population initiate. La discretisation permet de visualiser le comportement du couple 
10 d'attributs numerique vis k vis de l'attribut cible. Dans Pexemple represent^ on 
observera une relation de dSpendance en spirale entre le couple d'attributs et l'attribut 
cible. Le tableau de contingence est en fait le suivant : 





Classe I 


Classe 2 


Effectifs 


Zone 1 


11,8% 


88,2% 


212 


Zone 2 


2,5% 


97,5% 


122 


Zone 3 


88,7% 


11,3% 


512 


Zone 4 


69,5% 


30,5% 


154 



15 

Tableau 9 

Ainsi, les zones 1 et 2 sont tres majoritairement constitutes d'individus de la 
classe 2 alors que la zone 3 est essentiellement constitute d' individus de la classe 1. 
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RE VENDIC ATI ONS 



1) Methode de discretisation d'un attribut d'une base de donnees contenant une 
5 population d'individus, ledit attribut, dit attribut source, pouvant prendre plusieurs 

modalites, caracterisee en ce que, dans une premiere etape, on regroupe lesdites 
modalites de Pattribut source en groupes etementaires et, qu'a partir du tableau de 
contingence de Pattribut source et d'un attribut cible, on determine, dans une seconde 
etape, parmi un ensemble de couples de groupes elementaires, le couple de groupes 
10 Elementaires dont la fusion diminue le plus fortement la probability d'independance de 
Pattribut source et de Pattribut cible, et que Pon fasionne dans une troisieme etape le 
couple de groupes elementaires ainsi determine, lesdites seconde et troisi&me etapes 
etant iterees tant qu'il existe un couple de groupes elementaires permettant de 
dirninuer ladite probability d'independance. 

15 

2) Mtethode de discretisation selon la revendication 1, caracterisee en ce que, 
pour determiner le couple de groupes elementaires dans la seconde etape, on estime 
pour chaque couple de groupes elementaires dudit ensemble, la valeur du du 
tableau de contingence apres fusion dudit couple et Pon select ionne le couple 

20 produisant la valeur du j£ apres fusion la plus elevee. 

3) Methode de discretisation selon la revendication 2, caracterisee en ce que, 
pour chaque couple de groupes elementaires, on calcule la variation du du tableau 
de contingence avant et apres fusion dudit couple. 

25 

4) Methode de discretisation selon la revendication 3, caracterisee en ce que les 
variations du j£ associees aux differents couples sont triees sous forme de liste de 
valeurs decroissantes et que Pon selectionne le premier couple de la liste. 
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5) Methode de discretisation selon Tune des revendications 2 a 4, caracterisee en 
ce que, le couple de groupes eiementaires etant selectionnd, on procede a la fusion 
dudit couple si la probability du £ relative au tableau de contingence apres fusion 
dudit couple est inferieure a la probability du £ relative au tableau de contingence 

5 avant fusion. 

6) Methode de discretisation selon la revendication 5, caracterisee en ce que les 
probability du £ relatives au tableau de contingence avant et apr£s fusion sont 
exprimees de mani&re logarithmique. 

10 

7) Methode de discretisation selon Tune des revendications pr^cedentes, 
carcaterisee en ce que ledit ensemble de couples de groupes eiementaires est constitue 
de tous les couples de groupes voisins au sens d'une relation de voisinage 
predeterminee. 

15 

8) Methode de discretisation selon la revendication 7, caracterisee en ce que Ton 
recherche parmi les couples de groupes eiementaires voisins ceux comprenant au 
moins un groupe presentant au moins un effectif theorique par case du tableau de 
contingence inferieur a un effectif minimum predetermine et qu'on les identifie 

20 comme couples prioritaires au moyen d'une information d 'identification. 

9) Methode de discretisation selon la revendication 8, caracterisee en ce que, s'il 
existe un ou des couples prioritaires, on fusionne le couple prioritaire produisant la 
valeur du j£ apres fusion la plus eievee. 

25 

10) Methode de discretisation selon Tune des revendications 7 a 10, caracterisee 
en ce que, Pattribut source etant un attribut numerique mono-dimensionnel, les 
groupes eiementaires voisins sont constitues par des intervalles adjacents. 



2825168 



1 1) Methode de discretisation selon Tune des revendications 7 a 10, caracterisee 
en ce que, Fattribut source etant un attribut numerique multi-dimensionnel forme par 
plurality d'attributs numeriques mono-dimensionnels et les individus de la population 
etant repr^sentes par des points dans l'espace desdits attributs, lesdits groupes 
elementaires sont les cellules de Voronoi de cet espace, contenant lesdits points. 

12) Methode de discretisation selon la revendication 11, caracterisee en ce que 
Ton construit le graphe de Delaunay associe aux cellules de Voronoi et que Ton 
elimine de ce graphe tout arc joignant deux cellules voisines en passant par une 
troisieme, les couples de groupes elementaires voisins etant alors donnas par les arcs 
du graphe de Delaunay apres Tetape d'elimination. 

13) Methode de discretisation selon Tune des revendications 7 a 10, caracterisee 
en ce que 1' attribut source est de type symbolique. 

14) Methode devaluation de la dependance d'un attribut d'une base de donnees 
vis a vis d'un attribut cible, caracterisee en ce que ledit attribut est discretise par la 
methode de discretisation selon Tune des revendications 1 h 13 et que la dependance 
dudit attribut est estimee a partir de la probabilite de la valeur du £ de l'attribut ainsi 
discretise. 

15) Methode devaluation de la dependance d'un attribut numerique bi- 
dimensionnel, forme par un couple d'attributs numeriques mono-dimensionnels, vis a 
vis d'un attribut cible et les individus de la population etant representes par des points 
dans le plan desdits attributs, caracterisee en ce que l'attribut bi-dimensionnel est 
discretise par la methode de discretisation selon la revendication 12 et que Ton 
visualise par des moyens de visualisation des goupes de cellules de Voronoi 
fusionnees par Iadite methode. 
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16) Logiciel de data mining comprenant un programme de discretisation d'au 
moins un attribut d'une base de donnees, caracteris6 en que son execution sur un 
ordinateur effectue les etapes de la methode revendiquee selon Tune des 
revendications prec6dentes. 
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